当今智能城市中产生的大型视频数据从其有目的的用法角度引起了人们的关注,其中监视摄像机等是最突出的资源,是为大量数据做出贡献的最突出的资源,使其自动化分析成为计算方面的艰巨任务。和精确。暴力检测(VD)在行动和活动识别域中广泛崩溃,用于分析大型视频数据,以了解由于人类而引起的异常动作。传统上,VD文献基于手动设计的功能,尽管开发了基于深度学习的独立模型的进步用于实时VD分析。本文重点介绍了深度序列学习方法以及检测到的暴力的本地化策略。该概述还介入了基于机器学习的初始图像处理和基于机器学习的文献及其可能具有的优势,例如针对当前复杂模型的效率。此外,讨论了数据集,以提供当前模型的分析,并用对先前方法的深入分析得出的VD域中的未来方向解释了他们的利弊。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
当前,根据CNN处理的视频数据,主要执行动作识别。我们研究CNN的表示过程是否也可以通过将基于图像的动作音频表示为任务中的多模式动作识别。为此,我们提出了多模式的音频图像和视频动作识别器(MAIVAR),这是一个基于CNN的音频图像到视频融合模型,以视频和音频方式来实现卓越的动作识别性能。Maivar提取音频的有意义的图像表示,并将其与视频表示形式融合在一起,以获得更好的性能,与大规模动作识别数据集中的两种模式相比。
translated by 谷歌翻译
对比自我监督学习(CSL)已设法匹配或超过图像和视频分类中监督学习的表现。但是,仍然未知两个学习范式引起的表示的性质是否相似。我们在对抗性鲁棒性的角度下对此进行了研究。我们对该问题的分析治疗揭示了CSL对监督学习的内在更高灵敏度。它将数据表示形式在CSL表示空间中的单位过球上的统一分布是这种现象的关键因素。我们确定这会增加模型对输入扰动的敏感性,而在培训数据中存在假阴性的情况下。我们的发现得到了对对抗性扰动和其他输入损坏的图像和视频分类的广泛实验的支持。在洞察力的基础上,我们制定了简单但有效地通过CSL培训改善模型鲁棒性的策略。我们证明,对抗攻击的CSL及其受监督的对手之间的性能差距最高可下降68%。最后,我们通过将我们的发现纳入对抗性的自我监督学习中,为强大的CSL范式做出了贡献。我们证明,在该域中的两种不同的最新方法中,平均增益约为5%。
translated by 谷歌翻译
系外行星的检测为发现新的可居住世界的发现打开了大门,并帮助我们了解行星的形成方式。 NASA的目的是寻找类似地球的宜居行星,推出了开普勒太空望远镜及其后续任务K2。观察能力的进步增加了可用于研究的新鲜数据的范围,并且手动处理它们既耗时又困难。机器学习和深度学习技术可以极大地帮助降低人类以经济和公正的方式处理这些系外行星计划的现代工具所产生的大量数据的努力。但是,应注意精确地检测所有系外行星,同时最大程度地减少对非外界星星的错误分类。在本文中,我们利用了两种生成对抗网络的变体,即半监督的生成对抗网络和辅助分类器生成对抗网络,在K2数据中检测传播系外行星。我们发现,这些模型的用法可能有助于用系外行星的恒星分类。我们的两种技术都能够在测试数据上以召回和精度为1.00的光曲线分类。我们的半监督技术有益于解决创建标签数据集的繁琐任务。
translated by 谷歌翻译
无人驾驶汽车(UAV)的使用提供了各种应用程序的许多优势。但是,安全保证是广泛使用的关键障碍,尤其是考虑到无人机所经历的不可预测的操作和环境因素,这些因素很难仅在设计时间内捕获。本文提出了一种称为SAFEDRONES的新可靠性建模方法,以通过实现无人机的运行时可靠性和风险评估来帮助解决此问题。它是可执行数字可靠身份(EDDI)概念的原型实例化,该概念旨在为多机器人系统的实时,数据驱动的可靠性保证创建基于模型的解决方案。通过提供实时可靠性估算,SAFEDRONES允许无人机以自适应方式相应地更新其任务。
translated by 谷歌翻译
机器学习〜(ML)近年来在不同的应用和域上提供了令人鼓舞的结果。但是,在许多情况下,需要确保可靠性甚至安全性等质量。为此,一个重要方面是确定是否在适合其应用程序范围的情况下部署了ML组件。对于其环境开放且可变的组件,例如在自动驾驶汽车中发现的组件,因此,重要的是要监视其操作情况,以确定其与ML组件训练有素的范围的距离。如果认为该距离太大,则应用程序可以选择考虑ML组件结果不可靠并切换到替代方案,例如改用人类操作员输入。 SAFEML是一种基于培训和操作数据集的统计测试的距离测量,用于执行此类监视的模型无形方法。正确设置Safeml的限制包括缺乏用于确定给定应用程序的系统方法,需要多少个操作样本来产生可靠的距离信息以及确定适当的距离阈值。在这项工作中,我们通过提供实用方法来解决这些限制,并证明其在众所周知的交通标志识别问题中的用途,并在一个使用Carla开源汽车模拟器的示例中解决了这些局限性。
translated by 谷歌翻译
图形卷积是一种最近可扩展的方法,用于通过在多个层上汇总本地节点信息来对属性图进行深度特征学习。这样的层仅考虑向前模型中节点邻居的属性信息,并且不将全球网络结构的知识纳入学习任务。特别是,模块化功能提供了有关网络社区结构的方便信息。在这项工作中,我们通过将网络的社区结构保存目标纳入图卷积模型中,调查了对学习表示的质量的影响。我们通过在输出层中的成本函数中的明确正规化项和通过辅助层计算的附加损失项中通过两种方式结合目标。我们报告了在图形卷积体系结构中保存术语的社区结构的效果。对两个归因的分布图网络进行的实验评估表明,社区保护目标的合并提高了稀疏标签制度中的半监督节点分类精度。
translated by 谷歌翻译
最近显示出一种仅通过神经元的尖峰实现的计算系统,即语法,即进行简单的英语句子的依赖性解析。我们解决了这项工作所留下的两个最重要的问题:选区(句子的关键部分,例如动词短语)和处理依赖句子的处理,尤其是中央句子。我们表明,语言的这两个方面也可以由神经元和突触以与已知或被广泛相信的语言器官的结构和功能兼容的方式来实现。令人惊讶的是,我们实施中心嵌入的方式指出了无上下文语言的新表征。
translated by 谷歌翻译